多模式意图识别是理解现实世界中人类语言的重要任务。大多数现有意图识别方法在利用基准数据集的限制中利用多模式信息的局限性,仅使用文本信息。本文介绍了一个用于多模式意图识别(MinTreec)的新型数据集,以解决此问题。它根据电视系列超市收集的数据制定了粗粒和细粒度的分类法。该数据集由2,224个具有文本,视频和音频模式的高质量样本组成,并在二十个意图类别中具有多模式注释。此外,我们在每个视频段中提供带注释的扬声器框架框,并实现扬声器注释的自动过程。 MinTrec对研究人员有助于挖掘不同方式之间的关系,以增强意图识别的能力。我们通过适应三种强大的多模式融合方法来构建基准,从每种模式和模型跨模式相互作用中提取特征。广泛的实验表明,采用非语言方式与仅文本模式相比,实现了实质性改进,这表明使用多模式信息进行意图识别的有效性。表现最佳的方法与人类之间的差距表明了这项任务对社区的挑战和重要性。完整的数据集和代码可在https://github.com/thuiar/mintrec上使用。
translated by 谷歌翻译
作为自动驾驶系统的核心部分,运动计划已受到学术界和行业的广泛关注。但是,由于非体力学动力学,尤其是在存在非结构化的环境和动态障碍的情况下,没有能够有效的轨迹计划解决方案能够为空间周期关节优化。为了弥合差距,我们提出了一种多功能和实时轨迹优化方法,该方法可以在任意约束下使用完整的车辆模型生成高质量的可行轨迹。通过利用类似汽车的机器人的差异平坦性能,我们使用平坦的输出来分析所有可行性约束,以简化轨迹计划问题。此外,通过全尺寸多边形实现避免障碍物,以产生较少的保守轨迹,并具有安全保证,尤其是在紧密约束的空间中。我们通过最先进的方法介绍了全面的基准测试,这证明了所提出的方法在效率和轨迹质量方面的重要性。现实世界实验验证了我们算法的实用性。我们将发布我们的代码作为开源软件包,目的是参考研究社区。
translated by 谷歌翻译
近年来,移动机器人变得雄心勃勃,并在大规模场景中部署。作为对环境的高级理解,稀疏的骨骼图对更有效的全球计划有益。当前,现有的骨骼图生成解决方案受到了几个主要局限性,包括对不同地图表示的适应性不佳,对机器人检查轨迹的依赖和高计算开销。在本文中,我们提出了一种有效且柔性的算法,该算法生成轨迹独立的3D稀疏拓扑骨架图,捕获了自由空间的空间结构。在我们的方法中,采用了有效的射线采样和验证机制来找到独特的自由空间区域,这有助于骨架图顶点,并且在相邻的顶点作为边缘之间具有遍历性。周期形成方案还用于维持骨架图紧凑度。基准测试与最先进的作品的比较表明,我们的方法在较短的时间内生成稀疏的图形,从而提供了高质量的全球计划路径。在现实世界中进行的实验进一步验证了我们在现实情况下我们方法的能力。我们的方法将成为开源以使社区受益的开源。
translated by 谷歌翻译
从视频中估算人的姿势对于人类计算机相互作用至关重要。通过精确估计人类姿势,机器人可以对人类提供适当的反应。大多数现有方法都使用光流,RNN或CNN从视频中提取时间功能。尽管这些尝试取得了积极的结果,但其中大多数仅直接整合沿时间维度的特征,而忽略了关节之间的时间相关性。与以前的方法相反,我们提出了一个基于域交叉注意机制的插件运动学建模模块(KMM),以对不同帧的关节之间的时间相关性进行建模。具体而言,提出的KMM通过计算其时间相似性来模拟任意两个关节之间的时间相关性。这样,KMM可以学习每个关节的运动提示。使用运动提示(时间域)和关节的历史位置(空间域),KMM可以提前推断关节的初始位置。此外,我们还基于KMM提出了一个运动学建模网络(KIMNET),用于通过结合姿势特征和关节的初始位置来获得关节的最终位置。通过对关节之间的时间相关性进行显式建模,Kimnet可以根据前一刻的所有关节来推断遮挡的关节。此外,KMM是通过注意机制实现的,该机制使其能够保持高度分辨率。因此,它可以将丰富的历史姿势信息转移到当前框架上,该信息为定位遮挡关节提供了有效的姿势信息。我们的方法在两个基于视频的姿势估计基准的基准上实现了最新的结果。此外,提出的Kimnet对闭塞显示了一些鲁棒性,证明了所提出的方法的有效性。
translated by 谷歌翻译
公开意图检测是自然语言理解中的一个重大问题,旨在以仅知道已知意图的先验知识来检测看不见的公开意图。当前方法在此任务中面临两个核心挑战。一方面,他们在学习友好表示方面有局限性来检测公开意图。另一方面,缺乏有效的方法来获得已知意图的特定和紧凑的决策边界。为了解决这些问题,本文介绍了一个原始框架DA-ADB,该框架连续学习了远距离感知的意图表示和自适应决策边界,以进行开放意图检测。具体而言,我们首先利用距离信息来增强意图表示的区别能力。然后,我们设计了一种新颖的损失函数,以通过平衡经验和开放空间风险来获得适当的决策界限。广泛的实验显示了距离了解和边界学习策略的有效性。与最先进的方法相比,我们的方法在三个基准数据集上实现了重大改进。它还具有不同比例的标记数据和已知类别的稳健性能。完整的数据和代码可在https://github.com/thuiar/textoir上获得
translated by 谷歌翻译
如今,Multototors正在享受丰富类型的任务中的重要角色。在这些任务期间,进入狭窄的和狭窄的隧道,即人类几乎无法访问,对于多陆来说是非常具有挑战性的。受限制的空间和重要的自我气流扰动在快速和缓慢的飞行速度下诱导控制问题,同时引起国家估计和感知的问题。因此,安全隧道飞行需要适当速度的平滑轨迹。为了解决这些挑战,在这封信中,提供了一个完整的自主空中系统,可以通过尺寸窄到0.6米的隧道平稳地飞行。该系统包含一个运动规划器,它沿着隧道中心线产生平滑的Mini-Jerk轨迹,该隧道中心线根据地图和欧几里德距离场(EDF)提取,并且通过计算流体动力学(CFD)和飞行获得其实际速度范围数据分析。在四窄隧道内部进行了大量飞行实验,以验证规划框架以及整个系统的鲁棒性。
translated by 谷歌翻译
尽管具有Relu激活功能的神经网络(NNS)在广泛的应用中找到了成功,但它们在风险敏感环境中的采用受到对稳健性和可解释性的担忧受到限制。以前的作品来检查稳健性,并改善解释性部分地利用了Relu Nn的分段线性函数形式。在本文中,我们探讨了relu nns在输入空间中创建的独特拓扑结构,识别分区本地多台之间的邻接并基于这种邻接的遍历算法。我们的Polytope Travering算法可以适用于验证与鲁棒性和解释性相关的广泛网络属性,提供统一的方法来检查网络行为。由于遍历算法显式访问所有本地多台面,因此它返回遍历区域内的网络行为清晰和完整的图像。遍历算法的时间和空间复杂性由通过穿过遍历区域的Relu NN分区超平面的数量来确定。
translated by 谷歌翻译
本文侧重于培训无限层的隐含模型。具体而言,以前的作品采用隐式差分,并解决后向传播的精确梯度。但是,是否有必要计算训练的这种精确但昂贵的渐变?在这项工作中,我们提出了一种新颖的梯度估计,用于隐式模型,命名为Phantom梯度,1)用于精确梯度的昂贵计算; 2)提供了对隐式模型培训的凭经质优选的更新方向。理论上,理论上可以分析可以找到损失景观的上升方向的条件,并基于阻尼展开和Neumann系列提供幻象梯度的两个特定实例化。大规模任务的实验表明,这些轻质幻像梯度大大加快了培训隐式模型中的后向往大约1.7倍,甚至基于想象成上的精确渐变来提高对方法的性能。
translated by 谷歌翻译
交通参与者的运动预测对于安全和强大的自动化驾驶系统至关重要,特别是在杂乱的城市环境中。然而,由于复杂的道路拓扑以及其他代理的不确定意图,这是强大的挑战。在本文中,我们介绍了一种基于图形的轨迹预测网络,其命名为双级预测器(DSP),其以分层方式编码静态和动态驾驶环境。与基于光栅状地图或稀疏车道图的方法不同,我们将驾驶环境视为具有两层的图形,专注于几何和拓扑功能。图形神经网络(GNNS)应用于提取具有不同粒度级别的特征,随后通过基于关注的层间网络聚合,实现更好的本地全局特征融合。在最近的目标驱动的轨迹预测管道之后,提取了目标代理的高可能性的目标候选者,并在这些目标上产生预测的轨迹。由于提出的双尺度上下文融合网络,我们的DSP能够产生准确和人类的多模态轨迹。我们评估了大规模协会运动预测基准测试的提出方法,实现了有希望的结果,优于最近的最先进的方法。
translated by 谷歌翻译
去中心化的国家估计是GPS贬低的地区自动空中群体系统中最基本的组成部分之一,但它仍然是一个极具挑战性的研究主题。本文提出了Omni-swarm,一种分散的全向视觉惯性-UWB状态估计系统,用于解决这一研究利基市场。为了解决可观察性,复杂的初始化,准确性不足和缺乏全球一致性的问题,我们在Omni-warm中引入了全向感知前端。它由立体宽型摄像机和超宽带传感器,视觉惯性探测器,基于多无人机地图的本地化以及视觉无人机跟踪算法组成。前端的测量值与后端的基于图的优化融合在一起。所提出的方法可实现厘米级的相对状态估计精度,同时确保空中群中的全球一致性,这是实验结果证明的。此外,在没有任何外部设备的情况下,可以在全面的无人机间碰撞方面支持,表明全旋转的潜力是自动空中群的基础。
translated by 谷歌翻译